Introdução

O objetivo deste projeto é fazer uma explocação preliminar nos dados de vinhos tintos do dataset, que compõem de variaveis quimicas do vinho e a qualidade, e verificar quais dessas propriedades tem mais relação com a qualidade do vinho tinto.

Citação do dataset conforme solicitação do autor:

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

Available at: [@Elsevier] http://dx.doi.org/10.1016/j.dss.2009.05.016 [Pre-press (pdf)] http://www3.dsi.uminho.pt/pcortez/winequality09.pdf [bib] http://www3.dsi.uminho.pt/pcortez/dss09.bib


Carregamento dos dados

Os conjunto de dados escolhido foi a de qualidade de vinhos tintos wineQualityReds.csv que já se encontra em uma estrutura e é utilizado em diversos trabalhos e disputas de analises de dados e machine learning, segue abaixo mais informações sobre os dados:

Origem dos dados: Red Wine Quality

Conjunto de Dados:

  1. Attribute information:

For more information, read [Cortez et al., 2009].

##### Input variables (based on physicochemical tests):

1 - fixed acidity (tartaric acid - g / dm^3)

2 - volatile acidity (acetic acid - g / dm^3)

3 - citric acid (g / dm^3)

4 - residual sugar (g / dm^3)

5 - chlorides (sodium chloride - g / dm^3

6 - free sulfur dioxide (mg / dm^3)

7 - total sulfur dioxide (mg / dm^3)

8 - density (g / cm^3)

9 - pH

10 - sulphates (potassium sulphate - g / dm3)

11 - alcohol (% by volume)

##### Output variable (based on sensory data):

12 - quality (score between 0 and 10)

  1. Description of attributes:

1 - fixed acidity: most acids involved with wine or fixed or nonvolatile (do not evaporate readily)

2 - volatile acidity: the amount of acetic acid in wine, which at too high of levels can lead to an unpleasant, vinegar taste

3 - citric acid: found in small quantities, citric acid can add ‘freshness’ and flavor to wines

4 - residual sugar: the amount of sugar remaining after fermentation stops, it’s rare to find wines with less than 1 gram/liter and wines with greater than 45 grams/liter are considered sweet

5 - chlorides: the amount of salt in the wine

6 - free sulfur dioxide: the free form of SO2 exists in equilibrium between molecular SO2 (as a dissolved gas) and bisulfite ion; it prevents microbial growth and the oxidation of wine

7 - total sulfur dioxide: amount of free and bound forms of S02; in low concentrations, SO2 is mostly undetectable in wine, but at free SO2 concentrations over 50 ppm, SO2 becomes evident in the nose and taste of wine

8 - density: the density of water is close to that of water depending on the percent alcohol and sugar content

9 - pH: describes how acidic or basic a wine is on a scale from 0 (very acidic) to 14 (very basic); most wines are between 3-4 on the pH scale

10 - sulphates: a wine additive which can contribute to sulfur dioxide gas (S02) levels, wich acts as an antimicrobial and antioxidant

11 - alcohol: the percent alcohol content of the wine

Output variable (based on sensory data): 12 - quality (score between 0 and 10)

Seção de Gráficos Univariados

## [1] 1599   12
## 'data.frame':    1599 obs. of  12 variables:
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##  fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00      
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00      
##  Median :0.07900   Median :14.00       Median : 38.00      
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47      
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00      
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00      
##     density             pH          sulphates         alcohol     
##  Min.   :0.9901   Min.   :2.740   Min.   :0.3300   Min.   : 8.40  
##  1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50  
##  Median :0.9968   Median :3.310   Median :0.6200   Median :10.20  
##  Mean   :0.9967   Mean   :3.311   Mean   :0.6581   Mean   :10.42  
##  3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10  
##  Max.   :1.0037   Max.   :4.010   Max.   :2.0000   Max.   :14.90  
##     quality     
##  Min.   :3.000  
##  1st Qu.:5.000  
##  Median :6.000  
##  Mean   :5.636  
##  3rd Qu.:6.000  
##  Max.   :8.000
## [1] "Quantidade e observações que não possuem acido citrico"
##   n()
## 1 132
## [1] "Quantidade e observações que o açucar residual é menor que 2.7"
##    n()
## 1 1245
Observações do Resumo
  • O conjunto de dados possui 1599 observações com 13 colunas/atributos, sendo 1 atributo X sendo o índice ou Id da amostra, 11 atributos físico-químicas e uma variável de qualidade de saída medindo o escore de qualidade dado por especialistas de vinho.
  • Existe uma grande variedade de dioxido de enxofre (livre e total) nas amostras.
  • O teor alcólico varia de 8.40 a 14.90, com uma mediana de 10.20, para as amostras no conjunto de dados.
  • A qualidade das amostras varia de 3 a 8, sendo 6 a mediana.
  • A faixa de acidez fixa é bastante alta, com um mínimo de 4.60 e um máximo de 15.90
  • O valor do pH varia de 2.740 a 4.010, com uma mediana de 3.310.
  • Menos de 9% das observações não possuem ácido citrico
  • Cerca de 75% dos vinho possuem o açucar residual inferior a 2.7

Geração de gráficos

Análise inicial de Qualidade

Gráfico de Qualidade

## [1] "Summary de Qualidade"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   5.000   6.000   5.636   6.000   8.000
## [1] "Summary de Qualidade: Agrupando qualidade por quantidade"
## # A tibble: 6 x 2
##   quality `n()`
##     <int> <int>
## 1       3    10
## 2       4    53
## 3       5   681
## 4       6   638
## 5       7   199
## 6       8    18
## [1] "Summary da nova variável quality.classification"
## # A tibble: 2 x 2
##   quality.classification `n()`
##   <fct>                  <int>
## 1 Ruim                     744
## 2 Bom                      855

Conforme verificado nos dados referênte a qualidade do vinho a maioria dos vinhos são de qualidade normal pois a maior parte das observações estão entre 5 e 7, e a mediana é 6, dessa forma posso rotular os vinhos de forma a criar uma nova variável para auxiliar na próximas análises, devido a concentração dos dados estarem entre 5 e 6 será criado uma nova variavel quality.classification, onde ‘Ruim’ será para vinhos de baixa qualidade onde possuem qualidade abaixo de 6 e ‘Bom’ de boa qualidade com qualidade superior ou igual à 6.

É possível ver com a nova classificação que possui mais vinhos de boa qualidade do que de baixa qualidade

Análise inicial de Acidez

Gráfico de Acidez Fixa

## [1] "Summary de Acidez fixa"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.60    7.10    7.90    8.32    9.20   15.90

Gráfico de Acidez Volátil

## [1] "Summary de Acidez Volátil"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1200  0.3900  0.5200  0.5278  0.6400  1.5800

Conforme observação do autor do dataset na descrição de atributo quanto maior o a acidez volátil mais desagradável é o vinho, sendo assim o dado de acidez volátil é um dado que pode impactar a qualidade do vinho.

Com base no Clube do Vinho |Vinhos tintos e brancos tem resultados diferentes frente a acidez. Tintos mais ácidos são mais elegantes, enquanto brancos são mais refrescantes.

Com base na Revista Adega O álcool e acidez são elementos chave do vinho de qualidade. O seu papel é tão fundamental que própria decisão de iniciar vindima é condicionada pelo equilíbrio entre açúcares (que se tornarão álcool após fermentação) e acidez existentes nas uvas.

Com base nos gráficos é possível verificar que a acidez está equilibrada entre as observações, pois a maior parte das observações estão entre o primeiro quartil e terceiro quartil, da acidez fixa estão entre o mínimo de 7.10 e o terceiro quartil com 9.20, e a acidez volátil está entre o mínimo de 0.39 e o terceiro quartil de 0,64.

Ambas as distribuições acidez fixa e acidez volátil possuem caudas positivas longas, e suas médias são mais alta do que suas medianas, e tornam a mediana uma melhor medida do valor central. Além disso, a distribuição de acidez volátil tem pequena distribuição bimodal.

Análise inicial dados que podem ajustar o sabor
Açucar Residual, Cloreto e Ácido Cítrico

Gráfico de Açucar Residual

## [1] "Summary de Açucar Residual"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.900   1.900   2.200   2.539   2.600  15.500

Gráfico de Cloretos

## [1] "Summary de Cloretos"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100

Gráfico de Ácido Cítrico

## [1] "Summary de Acido Cítrico"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000

Os parametros de ácido cítrico, açucar residual e cloreto, indicam a saborização do vinho, se será mais salgado, doce ou com refrescante por sabor cítrico.

Observando os gráficos e a sumariazação dos dados, de “saborização”, as observações estão no centro dos dados entre os o primeiro e terceiro quartil.

O ácido cítrico parece uma distribuição bimodal, e aparenta poucos valores discrepantes pelo gráfico, 50% dos valores estão entre 0.090 e 0.420 e a media está em 0.260

O açúcar residual possui a maior concentração dos dados menor que 2.6, tendo um pico aproximadamente na mediana 2.2

Os cloretos possuem o mesmo comportamento que que o açucar residual, onde 75% dos dados estao entre 0.012 e 0.09

Análise inicial dados que podem ajustar a oxidação e o controle microbial
Dióxido de enxofre livre e total e Sulfato de potássio

Gráfico de Dióxido de enxofre livre

## [1] "Summary de Dióxido de Enxofre Livre"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    7.00   14.00   15.87   21.00   72.00

Gráfico de Dióxido de enxofre total

## [1] "Summary de Dióxido de Enxofre Total"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   22.00   38.00   46.47   62.00  289.00

Gráfico de Dióxido de Sulfato de Potássio

## [1] "Summary de Sulfatos"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.5500  0.6200  0.6581  0.7300  2.0000

Conforme descriçoes do autor para dióxido de enxofre e sulfato de potácio, atuam como antimicrobial e antioxidantes, o dióxido de enxofre total, pode interferir no sabor e no aroma.

O dióxido de enxofre livre segue uma distribuição normal com média proxima de 15.9, com 50% dos dados entre 7 e 21.

O dióxido de enxofre total segue uma distribuição normal com média entorno de 46.4, 50% dos dados estao entre 22 e 62

A maioria dos valores de sulfatos estão entre 0.3 e 0.7

Análise inicial de Densidade e Alcool

Gráfico de Densidade

## [1] "Summary de Densidade"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9956  0.9968  0.9967  0.9978  1.0037

Gráfico de Alcool

## [1] "Summary de Alcool"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90

Conforme o autor, a densidade de água depende do percentual de álcool e a quantidade de açúcar residual no vinho

A densidade segue uma distribuição normal com média em 0.9967 e mediana de 0.9968

A distribuição de alcool estão entre mínimo de 8.40 e 14.90, onde 50% das observações estão entre 9.50 e 11.10, a mediana é de 10.20 e a média é de 10.42

Análise inicial de pH

Gráfico de pH

## [1] "Summary de pH"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.210   3.310   3.311   3.400   4.010

Conforme visto no site Revista Adega do UOL: … Nos vinhos tintos, níveis de pH muito baixos estão acompanhados por uma cor roxa brilhante. Assim que o pH vai aumentando, sombras azuladas aparecerão. Em níveis altos de pH, reflexos marrons ficam evidentes …

Sendo assim, o pH do vinho pode interferir na cor do vinho

O pH possui uma distribuição normal onde a média e a mediana estão proximas, e a faixa do pH esta aproximadamente entre 2.7 e 4

Análise Univariada

Qual é a estrutura do conjunto de dados?

O Dataset consiste em 1599 observações e 13 atributos, sendo 1 id, 12 atributos e 1 de saída onde: 1 atributo de identificação de amostra “X” sendo o índice, que foi removida pois não fará parte da análise 11 atributos de entrada ( propriedades químicas) (fixed.acidity, volatile.acidity, citric.acid, residual.sugar, chlorides, free.sulfur.dioxide, total.sulfur.dioxide, density, pH, sulphates, alcohol) 1 atributo de saída qualidade ( qualidade dos vinhos tintos ), a análise princial será entender quais propriedades qímicas influenciam na qualidade dos vinhos tintos.

Obs: Todos os atributos são numéricos até mesmo a qualidade que é baseado em uma pontuação de 0 a 10, esse recurso é mais facil de ser fatorado para interpretações durante a análise, será criado uma nova variável

Quais são os principais atributos de interesse deste conjunto de dados?

A principal característica do conjunto de dados é a qualidade, a idéia principal é tentar avaliar a o comportamento dos demais atributos interferem na qualidade do vinho com alguns outros recursos, utilizando análise bivariada e multivariada.

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Eu aprendi, olhando alguns artigos na internet especializados em vinho como está em itens acima da análise, e até mesmo no link uma boa qualidade do vinho pode ser dada pelo alcool (alcool), gosto ácido (ácidos) e o dioxido de enxofre total pode influenciar no aroma do vinho, portanto pode modificar a qualidade do vinho, portanto podem ser atributos que podem ser relevantes a serem analisados como acidez fixa, acidez volátil, ácido cítrico, dióxido de enxofre álcool e qualidade.

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Sim, criei 3 novas variáveis sendo:

quality.classification para auxiliar em uma classificação mais simples da qualidade de vinhos do especialista se a qualidade for manor que 6 classifiquei como Ruim = 0 e caso seja maior ou igual a 6 classifiquei como Bom = 1

total.acidity para auxiliar em um calculo de total de acidez do vinho com o total de ácidos do vinho somando a acidez fixa, a acidez volatil e o ácido citrico

quality.factor para facilitar em uso em gráficos a qualidade como factor

Dos atributos investigados, distribuições incomuns foram encontradas?

Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados?

Se sim, por quê?

O açucar residual e os cloretos possuem distribuições incomuns e com maior propenções a terem outliers, mesmo com análise em log10 aplicado possui áreas sem valor com valores distantes e com cauda longa e bimodal.

Seção de Gráficos Bivariados

##                      fixed.acidity volatile.acidity citric.acid
## fixed.acidity                1.000          -0.2561       0.672
## volatile.acidity            -0.256           1.0000      -0.552
## citric.acid                  0.672          -0.5525       1.000
## residual.sugar               0.115           0.0019       0.144
## chlorides                    0.094           0.0613       0.204
## free.sulfur.dioxide         -0.154          -0.0105      -0.061
## total.sulfur.dioxide        -0.113           0.0765       0.036
## density                      0.668           0.0220       0.365
## pH                          -0.683           0.2349      -0.542
## sulphates                    0.183          -0.2610       0.313
## alcohol                     -0.062          -0.2023       0.110
## quality                      0.124          -0.3906       0.226
##                      residual.sugar chlorides free.sulfur.dioxide
## fixed.acidity                0.1148    0.0937             -0.1538
## volatile.acidity             0.0019    0.0613             -0.0105
## citric.acid                  0.1436    0.2038             -0.0610
## residual.sugar               1.0000    0.0556              0.1870
## chlorides                    0.0556    1.0000              0.0056
## free.sulfur.dioxide          0.1870    0.0056              1.0000
## total.sulfur.dioxide         0.2030    0.0474              0.6677
## density                      0.3553    0.2006             -0.0219
## pH                          -0.0857   -0.2650              0.0704
## sulphates                    0.0055    0.3713              0.0517
## alcohol                      0.0421   -0.2211             -0.0694
## quality                      0.0137   -0.1289             -0.0507
##                      total.sulfur.dioxide density     pH sulphates alcohol
## fixed.acidity                      -0.113   0.668 -0.683    0.1830  -0.062
## volatile.acidity                    0.076   0.022  0.235   -0.2610  -0.202
## citric.acid                         0.036   0.365 -0.542    0.3128   0.110
## residual.sugar                      0.203   0.355 -0.086    0.0055   0.042
## chlorides                           0.047   0.201 -0.265    0.3713  -0.221
## free.sulfur.dioxide                 0.668  -0.022  0.070    0.0517  -0.069
## total.sulfur.dioxide                1.000   0.071 -0.066    0.0429  -0.206
## density                             0.071   1.000 -0.342    0.1485  -0.496
## pH                                 -0.066  -0.342  1.000   -0.1966   0.206
## sulphates                           0.043   0.149 -0.197    1.0000   0.094
## alcohol                            -0.206  -0.496  0.206    0.0936   1.000
## quality                            -0.185  -0.175 -0.058    0.2514   0.476
##                      quality
## fixed.acidity          0.124
## volatile.acidity      -0.391
## citric.acid            0.226
## residual.sugar         0.014
## chlorides             -0.129
## free.sulfur.dioxide   -0.051
## total.sulfur.dioxide  -0.185
## density               -0.175
## pH                    -0.058
## sulphates              0.251
## alcohol                0.476
## quality                1.000

Observações sobre o correlograma:

Será analisado apartir da qualidade até a acidez fixa, da direita para esqueda da referencia da direita para esquerda.

Avaliando não possui nenhuma correlação muito forte, as relações mais fortes estão entre 0,5 e 0,7 positiva e negativa

Verificação de relação da qualidade com demais variáveis, com base em regressão linear,

Com base na verificação os principais atributos para análise são: Acidez Fixa, Acidez Volatil, Ácido Cítrico, Dioxo de Enxofre Total, Densidade, Sulfatos, Alcool

Como o Açucar Residual, Cloretos, Dioxido de Enxofre, pH estão com baixa correlação dentre a qualidade dos vinhos, e como a qualidade é o intuito da análise, não irei utiliza-los na análises por não serem variáveis de alta relevância neste momento

Para simplificar a análise irei utilizar a variável variavel criada “total.acidity”

Portanto será utilizado as variáveis:

##                      total.sulfur.dioxide     density  sulphates
## total.sulfur.dioxide           1.00000000  0.07126948 0.04294684
## density                        0.07126948  1.00000000 0.14850641
## sulphates                      0.04294684  0.14850641 1.00000000
## alcohol                       -0.20565394 -0.49617977 0.09359475
## quality                       -0.18510029 -0.17491923 0.25139708
## total.acidity                 -0.09627567  0.67559618 0.18160349
##                          alcohol    quality total.acidity
## total.sulfur.dioxide -0.20565394 -0.1851003   -0.09627567
## density              -0.49617977 -0.1749192    0.67559618
## sulphates             0.09359475  0.2513971    0.18160349
## alcohol               1.00000000  0.4761663   -0.06666786
## quality               0.47616632  1.0000000    0.10375373
## total.acidity        -0.06666786  0.1037537    1.00000000

O objetivo principal é saber como esses recursos afetam a qualidade do vinho, mas primeiro, para não ver como os outros recursos estão relacionados.

Aqui está uma relação mediana entre o álcool e a densidade do vinho. De fato, a correlação é de -0,5.

O valor de correlação para esses pares é 0,1, nenhuma relação pode ser mostrada, vendo o modelo linear dessas características (linha azul) podemos ver quase uma linha horizontal. Isso significa que a inclinação (valor de acidez total) tem muito pouca importância nessa equação.

## quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   7.480   8.101   8.883   9.415  10.780  12.840 
## -------------------------------------------------------- 
## quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.270   7.570   8.300   8.647   9.300  13.450 
## -------------------------------------------------------- 
## quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.770   7.880   8.600   8.988   9.830  16.910 
## -------------------------------------------------------- 
## quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.390   7.710   8.640   9.118  10.186  15.350 
## -------------------------------------------------------- 
## quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.320   8.105   9.470   9.651  10.980  17.045 
## -------------------------------------------------------- 
## quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.660   7.933   9.095   9.381  11.002  13.630
## quality: 3
## [1] 10
## -------------------------------------------------------- 
## quality: 4
## [1] 53
## -------------------------------------------------------- 
## quality: 5
## [1] 681
## -------------------------------------------------------- 
## quality: 6
## [1] 638
## -------------------------------------------------------- 
## quality: 7
## [1] 199
## -------------------------------------------------------- 
## quality: 8
## [1] 18

## quality.classification: Ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   8.400   9.400   9.700   9.926  10.300  14.900 
## -------------------------------------------------------- 
## quality.classification: Bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40   10.00   10.80   10.86   11.70   14.00
## quality.classification: Ruim
## [1] 744
## -------------------------------------------------------- 
## quality.classification: Bom
## [1] 855

## quality.classification: Ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9926  0.9961  0.9969  0.9971  0.9979  1.0031 
## -------------------------------------------------------- 
## quality.classification: Bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.9901  0.9952  0.9964  0.9965  0.9977  1.0037
## quality.classification: Ruim
## [1] 744
## -------------------------------------------------------- 
## quality.classification: Bom
## [1] 855

## quality.classification: Ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.270   7.860   8.592   8.969   9.801  16.910 
## -------------------------------------------------------- 
## quality.classification: Bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   5.320   7.795   8.850   9.248  10.495  17.045
## quality.classification: Ruim
## [1] 744
## -------------------------------------------------------- 
## quality.classification: Bom
## [1] 855

## quality.classification: Ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3300  0.5200  0.5800  0.6185  0.6500  2.0000 
## -------------------------------------------------------- 
## quality.classification: Bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3900  0.5900  0.6600  0.6926  0.7700  1.9500
## quality.classification: Ruim
## [1] 744
## -------------------------------------------------------- 
## quality.classification: Bom
## [1] 855

## quality.classification: Ruim
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   23.75   45.00   54.65   78.00  155.00 
## -------------------------------------------------------- 
## quality.classification: Bom
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.00   20.00   33.00   39.35   50.00  289.00
## quality.classification: Ruim
## [1] 744
## -------------------------------------------------------- 
## quality.classification: Bom
## [1] 855

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

Conforme análisado, nenhuma das variáveis por si só possuem uma correlação muito forte com a qualidade, porém as variáveis que possuem maior correlação com a qualidade são o alcool positivamente com 0.476 e a acidez volatil negativamente -0.391, e uma correlação leve positiva com sulfatos e ácido citrico de aproximadamente de 0.25

O acido cítrico possui uma ligeria correlação moderada com a acidez fixa, acidez volátil, pH, assim como com a qualidade.

O açucar residual possui uma correlação muito baixa com os outros elementos, apenas possui uma pequena correlaçãom com a densidade de 0.35

O Dióxido de enxofre livre e total posuem uma correlação média para alta entre eles.

Dioxido de enxofre total: quanto menor, melhor a qualidade, a mediana é menor que 33 que a de vinhos com pior qualidade 45

A densidade possui uma correlação media entre a acidez fixa e o alcool, quanto maior a densidade, tende ter mais vinhos com qualidade pior.

O Sulfato não possui correlação forte com nenhum elemento, quanto maior a mediana e a media maior a qualidade, sendo assim

alcool possui uma relação mediana tendendo a fraca proximo de +/- 0.5 com a qualidade e a densidade, sendo assim favorece o entendimento que o autor nos passou que a densidade e o alcool possuem uma relação quantitativa, pois dependendo do percentual do alcool possui maior ou menor densidade, a correlação com açucar residual não possui um relacionamnto tão forte com a densidade e nem com o alcool, quanto maior o nível de alcool maior a quantidade de registro com qualidade de vinhos de boa qualidade

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Os relacionamentos mais interessantes que encontrei envolvem o recurso de acido citrico pois possui correlação com acidez volatil, acidez fixa, densidade e pH, assim como acidez fixa que possui acidez fixa, acido citrico, densidade, pH

Qual foi o relacionamento mais forte encontrado?

O Relacionamneto mais forte encontrado foi entre o pH e a acidez fixa de : -0.683, e a correlação mais forte com a variável de qualidade foi com o alcool de : 0.476

Seção de Gráficos Multivariados

Aqui podemos ver que com valores com maior qualidade, os valores de densidade pelo álcool parecem estar no canto esquerdo do gráfico e com os valores mais baixos, observando o gráfico se entende que a concentração de baixa qualidade esta com a quantidade menor de alcool, assim como a densidade esta dispersa

Regressão Linear

## 
## Call:
## lm(formula = quality ~ alcohol + density + fixed.acidity + volatile.acidity + 
##     citric.acid + sulphates + total.sulfur.dioxide, data = red_wine_quality)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.78316 -0.36672 -0.06091  0.44289  2.05714 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           2.730e+01  1.515e+01   1.802 0.071729 .  
## alcohol               2.878e-01  2.004e-02  14.362  < 2e-16 ***
## density              -2.492e+01  1.519e+01  -1.641 0.101070    
## fixed.acidity         6.325e-02  1.722e-02   3.673 0.000248 ***
## volatile.acidity     -1.258e+00  1.160e-01 -10.852  < 2e-16 ***
## citric.acid          -3.583e-01  1.398e-01  -2.563 0.010471 *  
## sulphates             7.468e-01  1.036e-01   7.206 8.86e-13 ***
## total.sulfur.dioxide -1.712e-03  5.286e-04  -3.239 0.001224 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6527 on 1591 degrees of freedom
## Multiple R-squared:  0.3496, Adjusted R-squared:  0.3468 
## F-statistic: 122.2 on 7 and 1591 DF,  p-value: < 2.2e-16

O R^2 ajustado é 34,6% com um p-value 2.2e-16 portanto aceitável, o valor é muito baixo

Arvore de Decisão

## Call:
## rpart(formula = quality.classification ~ alcohol + density + 
##     fixed.acidity + volatile.acidity + citric.acid + sulphates + 
##     total.sulfur.dioxide, data = red_wine_quality, method = "class")
##   n= 1599 
## 
##           CP nsplit rel error    xerror       xstd
## 1 0.36021505      0 1.0000000 1.0000000 0.02680849
## 2 0.02486559      1 0.6397849 0.6733871 0.02493003
## 3 0.01814516      3 0.5900538 0.6250000 0.02440820
## 4 0.01344086      5 0.5537634 0.5887097 0.02396934
## 5 0.01209677      8 0.5094086 0.5672043 0.02368903
## 6 0.01075269      9 0.4973118 0.5645161 0.02365290
## 7 0.01000000     10 0.4865591 0.5564516 0.02354302
## 
## Variable importance
##              alcohol            sulphates              density 
##                   35                   16                   15 
## total.sulfur.dioxide     volatile.acidity          citric.acid 
##                   12                   10                    8 
##        fixed.acidity 
##                    3 
## 
## Node number 1: 1599 observations,    complexity param=0.3602151
##   predicted class=Bom   expected loss=0.4652908  P(node) =1
##     class counts:   744   855
##    probabilities: 0.465 0.535 
##   left son=2 (842 obs) right son=3 (757 obs)
##   Primary splits:
##       alcohol              < 10.25    to the left,  improve=133.67330, (0 missing)
##       sulphates            < 0.585    to the left,  improve= 77.22690, (0 missing)
##       volatile.acidity     < 0.5475   to the right, improve= 67.93661, (0 missing)
##       total.sulfur.dioxide < 81.5     to the right, improve= 45.56073, (0 missing)
##       density              < 0.995685 to the right, improve= 44.52363, (0 missing)
##   Surrogate splits:
##       density              < 0.995745 to the right, agree=0.707, adj=0.382, (0 split)
##       volatile.acidity     < 0.515    to the right, agree=0.620, adj=0.197, (0 split)
##       citric.acid          < 0.315    to the left,  agree=0.611, adj=0.178, (0 split)
##       sulphates            < 0.675    to the left,  agree=0.610, adj=0.176, (0 split)
##       total.sulfur.dioxide < 47.5     to the right, agree=0.600, adj=0.156, (0 split)
## 
## Node number 2: 842 observations,    complexity param=0.02486559
##   predicted class=Ruim  expected loss=0.3408551  P(node) =0.5265791
##     class counts:   555   287
##    probabilities: 0.659 0.341 
##   left son=4 (353 obs) right son=5 (489 obs)
##   Primary splits:
##       sulphates            < 0.575    to the left,  improve=26.70698, (0 missing)
##       volatile.acidity     < 0.3175   to the right, improve=22.03022, (0 missing)
##       total.sulfur.dioxide < 98.5     to the right, improve=18.46316, (0 missing)
##       fixed.acidity        < 9.95     to the left,  improve=16.72252, (0 missing)
##       alcohol              < 9.85     to the left,  improve=13.51416, (0 missing)
##   Surrogate splits:
##       density              < 0.996225 to the left,  agree=0.658, adj=0.184, (0 split)
##       volatile.acidity     < 0.6525   to the right, agree=0.631, adj=0.119, (0 split)
##       citric.acid          < 0.115    to the left,  agree=0.593, adj=0.028, (0 split)
##       total.sulfur.dioxide < 67.5     to the right, agree=0.590, adj=0.023, (0 split)
##       fixed.acidity        < 6.15     to the left,  agree=0.587, adj=0.014, (0 split)
## 
## Node number 3: 757 observations,    complexity param=0.01344086
##   predicted class=Bom   expected loss=0.2496697  P(node) =0.4734209
##     class counts:   189   568
##    probabilities: 0.250 0.750 
##   left son=6 (477 obs) right son=7 (280 obs)
##   Primary splits:
##       alcohol          < 11.45    to the left,  improve=21.853830, (0 missing)
##       sulphates        < 0.585    to the left,  improve=20.317520, (0 missing)
##       volatile.acidity < 0.87     to the right, improve=17.810890, (0 missing)
##       citric.acid      < 0.295    to the left,  improve= 7.686858, (0 missing)
##       density          < 0.996195 to the right, improve= 7.570733, (0 missing)
##   Surrogate splits:
##       density              < 0.994715 to the right, agree=0.745, adj=0.311, (0 split)
##       fixed.acidity        < 5.85     to the right, agree=0.667, adj=0.100, (0 split)
##       citric.acid          < 0.635    to the left,  agree=0.639, adj=0.025, (0 split)
##       volatile.acidity     < 0.185    to the right, agree=0.637, adj=0.018, (0 split)
##       total.sulfur.dioxide < 162.5    to the left,  agree=0.634, adj=0.011, (0 split)
## 
## Node number 4: 353 observations
##   predicted class=Ruim  expected loss=0.1926346  P(node) =0.220763
##     class counts:   285    68
##    probabilities: 0.807 0.193 
## 
## Node number 5: 489 observations,    complexity param=0.02486559
##   predicted class=Ruim  expected loss=0.4478528  P(node) =0.3058161
##     class counts:   270   219
##    probabilities: 0.552 0.448 
##   left son=10 (204 obs) right son=11 (285 obs)
##   Primary splits:
##       total.sulfur.dioxide < 50.5     to the right, improve=18.722640, (0 missing)
##       volatile.acidity     < 0.3175   to the right, improve=16.246320, (0 missing)
##       fixed.acidity        < 10.05    to the left,  improve=15.876330, (0 missing)
##       alcohol              < 9.85     to the left,  improve=10.399490, (0 missing)
##       density              < 0.99719  to the left,  improve= 4.405176, (0 missing)
##   Surrogate splits:
##       sulphates        < 1.065    to the right, agree=0.620, adj=0.088, (0 split)
##       volatile.acidity < 0.7125   to the right, agree=0.609, adj=0.064, (0 split)
##       density          < 1.00231  to the right, agree=0.591, adj=0.020, (0 split)
##       citric.acid      < 0.255    to the right, agree=0.589, adj=0.015, (0 split)
##       alcohol          < 8.9      to the left,  agree=0.585, adj=0.005, (0 split)
## 
## Node number 6: 477 observations,    complexity param=0.01344086
##   predicted class=Bom   expected loss=0.3417191  P(node) =0.2983114
##     class counts:   163   314
##    probabilities: 0.342 0.658 
##   left son=12 (134 obs) right son=13 (343 obs)
##   Primary splits:
##       sulphates            < 0.585    to the left,  improve=20.217480, (0 missing)
##       volatile.acidity     < 0.8675   to the right, improve=13.100820, (0 missing)
##       total.sulfur.dioxide < 105.5    to the right, improve= 7.663450, (0 missing)
##       fixed.acidity        < 8.65     to the left,  improve= 5.315013, (0 missing)
##       density              < 0.995995 to the right, improve= 3.387912, (0 missing)
##   Surrogate splits:
##       volatile.acidity     < 0.835    to the right, agree=0.746, adj=0.097, (0 split)
##       total.sulfur.dioxide < 14.5     to the left,  agree=0.740, adj=0.075, (0 split)
##       citric.acid          < 0.045    to the left,  agree=0.736, adj=0.060, (0 split)
##       fixed.acidity        < 5.7      to the left,  agree=0.723, adj=0.015, (0 split)
##       density              < 0.99341  to the left,  agree=0.721, adj=0.007, (0 split)
## 
## Node number 7: 280 observations
##   predicted class=Bom   expected loss=0.09285714  P(node) =0.1751094
##     class counts:    26   254
##    probabilities: 0.093 0.907 
## 
## Node number 10: 204 observations
##   predicted class=Ruim  expected loss=0.2843137  P(node) =0.1275797
##     class counts:   146    58
##    probabilities: 0.716 0.284 
## 
## Node number 11: 285 observations,    complexity param=0.01814516
##   predicted class=Bom   expected loss=0.4350877  P(node) =0.1782364
##     class counts:   124   161
##    probabilities: 0.435 0.565 
##   left son=22 (239 obs) right son=23 (46 obs)
##   Primary splits:
##       fixed.acidity    < 10.75    to the left,  improve=11.687290, (0 missing)
##       volatile.acidity < 0.555    to the right, improve= 9.983269, (0 missing)
##       density          < 0.99716  to the left,  improve= 7.353751, (0 missing)
##       sulphates        < 0.685    to the left,  improve= 6.161136, (0 missing)
##       citric.acid      < 0.27     to the left,  improve= 6.088044, (0 missing)
##   Surrogate splits:
##       citric.acid      < 0.495    to the left,  agree=0.874, adj=0.217, (0 split)
##       density          < 0.9995   to the left,  agree=0.870, adj=0.196, (0 split)
##       volatile.acidity < 0.215    to the right, agree=0.860, adj=0.130, (0 split)
## 
## Node number 12: 134 observations,    complexity param=0.01209677
##   predicted class=Ruim  expected loss=0.4253731  P(node) =0.08380238
##     class counts:    77    57
##    probabilities: 0.575 0.425 
##   left son=24 (125 obs) right son=25 (9 obs)
##   Primary splits:
##       volatile.acidity     < 0.335    to the right, improve=6.371463, (0 missing)
##       density              < 0.996175 to the right, improve=4.152256, (0 missing)
##       alcohol              < 10.85    to the right, improve=3.643836, (0 missing)
##       sulphates            < 0.475    to the left,  improve=2.783325, (0 missing)
##       total.sulfur.dioxide < 61.5     to the left,  improve=2.396352, (0 missing)
## 
## Node number 13: 343 observations,    complexity param=0.01344086
##   predicted class=Bom   expected loss=0.2507289  P(node) =0.2145091
##     class counts:    86   257
##    probabilities: 0.251 0.749 
##   left son=26 (21 obs) right son=27 (322 obs)
##   Primary splits:
##       total.sulfur.dioxide < 85.5     to the right, improve=13.969870, (0 missing)
##       alcohol              < 10.525   to the left,  improve= 5.613839, (0 missing)
##       sulphates            < 0.745    to the left,  improve= 5.219633, (0 missing)
##       density              < 0.996275 to the right, improve= 4.084060, (0 missing)
##       volatile.acidity     < 0.405    to the right, improve= 2.724901, (0 missing)
## 
## Node number 22: 239 observations,    complexity param=0.01814516
##   predicted class=Bom   expected loss=0.4979079  P(node) =0.1494684
##     class counts:   119   120
##    probabilities: 0.498 0.502 
##   left son=44 (111 obs) right son=45 (128 obs)
##   Primary splits:
##       volatile.acidity < 0.555    to the right, improve=6.344192, (0 missing)
##       alcohol          < 9.85     to the left,  improve=4.071564, (0 missing)
##       sulphates        < 0.685    to the left,  improve=3.772336, (0 missing)
##       density          < 0.99716  to the left,  improve=3.525392, (0 missing)
##       citric.acid      < 0.535    to the right, improve=3.334532, (0 missing)
##   Surrogate splits:
##       citric.acid   < 0.125    to the left,  agree=0.749, adj=0.459, (0 split)
##       fixed.acidity < 7.45     to the left,  agree=0.623, adj=0.189, (0 split)
##       alcohol       < 9.75     to the right, agree=0.598, adj=0.135, (0 split)
##       sulphates     < 0.615    to the left,  agree=0.594, adj=0.126, (0 split)
##       density       < 0.997235 to the left,  agree=0.590, adj=0.117, (0 split)
## 
## Node number 23: 46 observations
##   predicted class=Bom   expected loss=0.1086957  P(node) =0.02876798
##     class counts:     5    41
##    probabilities: 0.109 0.891 
## 
## Node number 24: 125 observations
##   predicted class=Ruim  expected loss=0.384  P(node) =0.07817386
##     class counts:    77    48
##    probabilities: 0.616 0.384 
## 
## Node number 25: 9 observations
##   predicted class=Bom   expected loss=0  P(node) =0.005628518
##     class counts:     0     9
##    probabilities: 0.000 1.000 
## 
## Node number 26: 21 observations
##   predicted class=Ruim  expected loss=0.1904762  P(node) =0.01313321
##     class counts:    17     4
##    probabilities: 0.810 0.190 
## 
## Node number 27: 322 observations
##   predicted class=Bom   expected loss=0.2142857  P(node) =0.2013759
##     class counts:    69   253
##    probabilities: 0.214 0.786 
## 
## Node number 44: 111 observations
##   predicted class=Ruim  expected loss=0.3783784  P(node) =0.06941839
##     class counts:    69    42
##    probabilities: 0.622 0.378 
## 
## Node number 45: 128 observations,    complexity param=0.01075269
##   predicted class=Bom   expected loss=0.390625  P(node) =0.08005003
##     class counts:    50    78
##    probabilities: 0.391 0.609 
##   left son=90 (12 obs) right son=91 (116 obs)
##   Primary splits:
##       citric.acid          < 0.535    to the right, improve=5.190374, (0 missing)
##       total.sulfur.dioxide < 35.5     to the right, improve=4.254027, (0 missing)
##       alcohol              < 9.85     to the left,  improve=3.223214, (0 missing)
##       volatile.acidity     < 0.265    to the right, improve=2.954307, (0 missing)
##       sulphates            < 0.675    to the left,  improve=2.299328, (0 missing)
##   Surrogate splits:
##       sulphates            < 0.985    to the right, agree=0.922, adj=0.167, (0 split)
##       total.sulfur.dioxide < 10.5     to the left,  agree=0.914, adj=0.083, (0 split)
## 
## Node number 90: 12 observations
##   predicted class=Ruim  expected loss=0.1666667  P(node) =0.00750469
##     class counts:    10     2
##    probabilities: 0.833 0.167 
## 
## Node number 91: 116 observations
##   predicted class=Bom   expected loss=0.3448276  P(node) =0.07254534
##     class counts:    40    76
##    probabilities: 0.345 0.655

## [1] "Erro do modelo"
## [1] 0.2263915
## [1] "Acerto do modelo"
## [1] 0.7736085

As 5 variáveis com maior importância conforme a árvore de decisão são: alcohol, sulphates, density, volatile.acidity e citric.acid

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

Como avaliado e fui destacando na analise bivariada, portanto fui melhorando minha analise e enriquecendo com a analise multivariada, a analise do alcool comparando com outras variáveis para avaliar a qualidade do vinho, percebi que quanto maior a quantidade de alcool possuia mais observacoes com vinhos de boa qualidade, tambem, quando rodei o modelo de arvore de decisão ele iniciou a arvore com o alcool, pois identificiou como sendo uma variável de alta importancia para o modelo

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Como avaliado e fui destacando na analise bivariada, portanto fui melhorando minha analise e enriquecendo com a analise multivariada, a analise do alcool comparando com outras variáveis para avaliar a qualidade do vinho, percebi que quanto maior a quantidade de alcool possuia mais observacoes com vinhos de boa qualidade, tambem, quando rodei o modelo de arvore de decisão ele iniciou a arvore com o alcool, pois identificiou como sendo uma variável de alta importancia para o modelo,

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.

Para tentar prever a qualidade do vinho, criei um modelo linear, utilizei as variáveis que defini para alcohol, density, fixed.acidity, volatile.acidity, citric.acid, sulphates, total.sulfur.dioxide para avaliação do modelo, porém para este tipo de dado o modelo de regressão linear não é muito adequado, pois a acurácia é muito baixa com R^2 ajustado é 34,6% com um p-value 2.2e-16

Fiz outro modelo com arvore de decisão onde tive um acerto de 77,3% na predição, sendo assim o modelo foi muito mais adequado que com a regressão linear, realizei um teste utilizando todas as variáveis do dataset, mesmo assim as variáveis que são utilizadas no modelo são as utilizadas durante a análise exploratória


Gráficos Finais e descrições

Primeiro Gráfico

Alcool pela classificação de qualidade

Descrição do Primeiro Gráfico

Quando falamos de qualidade em vinho, temos que levar em consideração uma infinidade de sabores, consistência, aroma, cores e longevidade. No entanto, há apreciadores que defendem a ideia de que o teor alcoólico é o grande medidor para afirmar se um vinho é bom ou não. O vinho é composto por mais de 400 substâncias, entre elas o álcool que é o resultado da fermentação entre a glicose e a frutose das uvas. De acordo com o que observamos no gráfico acima quanto mais álcool mais saboroso e com uma qualidade maior será o vinho. Sempre na medida, o álcool é bastante importante para preservar a essência do vinho, tanto enquanto bebida, como um fator sociável de quem o aprecia. Sua presença e influência no sabor macio e adocicado de um vinho sempre será na proporção contrária da presença ácida e tanina que um tipo vinícola pode ter.

Segundo Gráfico

Alcool pela Acidez Total com a Qualidade

Descrição do Segundo Gráfico

Este último gráfico analisamos duas qualidades para o vinho: a vermelha para uma qualidade de um vinho Bom e a verde para uma qualidade Ruim. Para vinhos de qualidade boa, quanto menor for a acidez, maior será o grau alcóolico em sua composição. Já para os vinhos considerados ruins esse número permaneceu na média. Lembramos que analisamos a qualidade com variáveis na forma de vetores multivariados. Os vetores multivariados, na estatística, correspondem a observações multivariadas compostas de uma coleção de p variáveis sobre n medidas diferentes tomadas do mesmo experimento. No gráfico podemos observar que a média de cada variável (média correspondente a cada linha da matriz de dados original) será representada por um elemento de um novo vetor, chamado de vetor de médias.

Terceiro Gráfico

Arvore de Decisão

Descrição do Terceiro Gráfico

Conforme observado no gráfico acima, segundo as 5 variáveis com maior importância (alcohol, sulphates, density, volatile.acidity e citric.acid) o álcool tem uma grande parcela na divisão destes itens importantes (quase 50% no total). Sempre na medida, o álcool é bastante importante para preservar a essência do vinho, tanto enquanto bebida, como um fator sociável de quem o aprecia. Sua presença e influência no sabor macio e adocicado de um vinho sempre será na proporção contrária da presença ácida e tanina que um tipo vinícola pode ter. Tanto que a acidez é colocada no gráfico como um item importante na divisão entre os tipos de sulfatos (não alcóolicos) demonstrado acima. Um bom vinho, seja ele branco ou tinto, sempre terá uma acidez equilibrada.


Reflexão

O conjunto de dados posuem 1599 amostras de vinhos tintos com 13 variaveis de 2009, comecei entenendo cada variavel individualmente com uma analise univariavel, após isso continuei uma analise tendendo o entendimento o comportamento das variáveis com relação com a variavel target “qualidade”, observando os dados e os gráficos, por fim criei um modelo linear e uma arvore de decisão para melhor explicar os dados.

O que pude aprender com esta análise e com estudo de materiais externos é que vinhos com graduações alcoólicas semelhantes também terão perfis parecidos. É claro que eles não serão exatamente os mesmos, mas certamente estão inseridos em grupos bastante próximos uns aos outros. A graduação alcoólica de um vinho é um ponto importante a ser considerado ao avaliar sua qualidade. O equilíbrio perfeito entre ela e todas as nuances de sabores e aromas, além de acidez e presença de taninos é o que fazem um bom rótulo. Por isso lembre-se de levar todos esses quesitos em consideração para tomar a decisão mais rica possível.

Entendo que com esta analise tive sucesso com a abordagem que os dados cítricos e a quantidade alcoólica pode influênciar na qualidade do vinho tinto, porém para trabalhos futuros, deveriam ter mais amostras balanceadas com qualidade entre 1 a 10 pois a concentração da qualidade ficaram entre 5 e 7 sendo assim a avaliação ficou muito tendenciosa.

Bibliografia:

DataSet:

https://docs.google.com/document/d/1jX3vzkFuFOBGUrlcQ_Lc3jEZVlC_2yyk3tFIbwAI5GQ/edit https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009

Exemplos Udacity

http://adv-r.had.co.nz/Style.html https://s3.amazonaws.com/content.udacity-data.com/courses/ud651/diamondsExample_2016-05.html

Revisas e temas sobre vinho:

https://www.clubedosvinhos.com.br/acidez-no-vinho-nao-tema/ https://revistaadega.uol.com.br/artigo/o-alcool-e-a-acidez_6055.html https://revistaadega.uol.com.br/artigo/a-importancia-do-ph-no-vinho_1552.html

R documentation:

https://ggplot2.tidyverse.org/reference/

Materiais Adicionais:

Apostilas do MBA De Machine Learning e Inteligencia Artificial da Universidade FIAP de: R para Inteligencia Artificial Estatistica para inteligencia artificial